目的:这项工作的目标是使用多摄像机视频来分类开放式手术工具,并确定每只手中的哪个工具。多摄像机系统有助于防止在开放的外科视频数据中闭塞。此外,组合多个视图,例如覆盖完整操作场的俯视摄像机和聚焦在手动运动和解剖结构上的特写相机,可以提供更全面的手术工作流程。然而,多摄像机数据融合构成了新的挑战:一个工具可以在一个相机中可见,而不是另一个。因此,我们将全球原始事实定义为使用的工具,无论他们的可见性如何。因此,在系统中应在广泛的时间段内记住超出图像的工具,而系统响应在视频中可见的变化。方法:参与者(n = 48)进行了模拟开放肠道修复。使用顶视图和特写摄像头。 YOLOV5用于工具和手动检测。具有每秒30帧(FPS)的1秒窗口的高频LSTM和3个FPS的40秒窗口的低频LSTM用于空间,时间和多摄像头集成。结果:六个系统的精度和F1是:俯视图(0.88 / 0.88),特写(0.81,0.83),摄像机(0.9 / 0.9),高FPS LSTM(0.92 / 0.93),低FPS LSTM (0.9 / 0.91),我们的最终体系结构多相机分类器(0.93 / 0.94)。结论:通过将具有高FP的系统与多个摄像机阵列的低FPS组合,我们提高了全球地面真理的分类能力。
translated by 谷歌翻译